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Ключевые слова: нейроуправление, расширенный фильтр Калмана, псевдорегуляризация. 


ТБе ргоегл$ оЁ 14епйНсаноп ап4 сопёго! Юг попеаг 4упапис об]есё ул изе оЁ пеига! пебмогк$ аге 
соп$14егеа. ТВе Ехепаед Ка|тап ЕЩег тефо4 ог пейга! пебмо $ гашиле 1$ дезстбеа. Рзеидогегшатаноп 
тебфо4 Юг еНесйуе ташште оЁ пепгоептаюг Юг Моде! Вегепсе Адарйуе Меигосопго!| 15$ ргорозе4. ТВе 
тези5 орпитепса] ехрегилеп Юг гашше оРпеигоети]аюг$ ап пеигосопгоПег$ аге ргезете4. 

Кеу У\ог45: пеигосопго|, фе ежеп4еа Катап ЯКег, рзеидогези]аптайоп 


У стати! розглядаються задач! 1дентификаци та управллння для нелйного динам!чного об’екта на основ! 
використання нейронних мереж. Викладаеться метод застосування розширеного ф1льтра Калмана для 
навчання нейронних мереж. Пропонуеться метод псевдорегуляр!заци для ефективного навчання нейро- 
емулятора в метод! нейроуправлння з еталонною моделлю. Наводяться результати експеримент!в з 
навчання нейроемуляторив 1 нейроконтролерив. 

Ключов! слова: нейроуправлиння, розширенний флльтр Калмана, псевдорегуляр1защя. 


602 «Искусственный интеллект» 42012 


Обучение нейроэмуляторов с использованием псевдорегуляризации... 7-Ч 


Введение 


В последние десятилетия искусственные нейронные сети широко используются 
для решения задач адаптивного управления. Нейросети успешно применялись для 
синтеза систем управления гибридным двигателем автомобиля [1], самолетом [2], 
вертолетом [3], турбогенератором [4], вооружением легкобронированных машин [5] 
и др. Нейронные системы управления по своей природе являются нелинейными 
системами, также они обладают способностью адаптироваться к изменяющимся свой- 
ствам объекта управления и внешней среды, что дает им принципиальные преиму- 
щества перед применяемыми сейчас повсеместно ПИД-контроллерами. Среди множества 
разработанных методов нейроуправления наибольшую популярность получили 
методы нейроуправления с эталонной моделью [1], [6-8], [9, с. 168], [10, с. 861] (Моде 
КеЕгепсе Адариуе Меигосопго]) и системы адаптивной критики [4], [6], [9, с. 94], [11] 
(Адарнуе Сг!ис$5). 

Метод нейроуправления с эталонной моделью, также известный как «схема с ней- 
роэмулятором и нейроконтроллером» или «обратное распространение во времени», был 
независимо предложен несколькими исследователями одновременно в начале 1990-х. 
Этот метод не требует знания математической модели объекта управления. Вместо 
этого, прямой динамике объекта управления обучается отдельная нейронная сеть, нейро- 
эмулятор, затем она используется для вычисления производных при обучении управ- 
ляющей нейросети, нейроконтроллера. 

В предыдущем исследовании [12], [13] мы установили, что нейроэмуляторы, 
показывающие лучшие результаты качества идентификации в смысле минимизации 
среднеквадратичной ошибки моделирования динамики объекта управления, не всегда 
обеспечивают хорошее качество обучения нейроконтроллеров. Нами был предложен 
критерий отбора нейроэмуляторов на основе анализа управляющих локальных гра- 
диентов нейроэмулятора, который позволил улучшить качество обучения нейроко- 
нтроллеров в среднем на 20 — 30%. 

В настоящей работе мы предлагаем новый метод обучения нейроэмуляторов, 
обеспечивающий максимизацию модулей локальных управляющих градиентов в про- 
цессе обучения, эффективный в смысле качества обучения последовательно подклю- 
ченных к нейроэмуляторам нейроконтроллеров, названный нами псевдорегуляризацией. 
Результаты проведенных численных экспериментов показали, что полученные таким 
образом нейроэмуляторы обеспечивают повышение качества обучения нейроконтрол- 
леров в среднем в 2 — 3 раза. 


Метод нейроуправления с эталонной моделью 


Пусть задан некоторый динамический объект управления, поведение которого 
определяется дискретными формулами (1 - 2): 


5(%+0=Ф(5(Ю), и(®)), (1) 


УЕ-+1) =Ч(5(®)), (2) 

где и(К) — входной сигнал, у(К +1) — выходной сигнал на такте А. Формулы 

(1 — 2) считаются априори неизвестными. Хотя состояние объекта 5(К) считается 
недоступным для внешнего наблюдения, его можно оценить, например: 

3 

5 =Ь® =. У&-М. — 

Задача управления формулируется следующим образом: пусть на такте А объект 

управления находится в положении у(К) и задана уставка 7(А +1), которая является 
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желаемым положением объекта управления на следующем такте. Контроллеру необхо- 
димо сгенерировать такое управление и(К), чтобы сделать различие между уставкой 
(К +1) и положением у(к-+1) минимальным. 

В методе нейроуправления с эталонной моделью уставка ’(А +1) дополнительно 
сглаживается эталонной моделью, в роли которой используется, как правило, устой- 
чивая линейная динамическая система небольшого порядка. Таким образом, замкнутый 
нейроконтроллером объект управления должен обучиться траектории следования эта- 
лонной модели 7т(А +1). 


Эталонная |7 (К +1) 


Нейро- 
контроллер 


управления 


Нейро- 


эмулятор 


Рисунок 1 — Структурная схема нейроуправления с эталонной моделью 


Метод нейроуправления с эталонной моделью предусматривает 3 этапа: 

1) Этап обучения в режиме офф-лайн первой нейронной сети, нейроэмулятора, 
моделировать объект управления. 

2) Этап обучения в режиме он-лайн второй нейронной сети, нейроконтроллера, 
управлять объектом управления. 

3) Этап использования обученного нейроконтроллера для управления объектом 
(нейроэмулятор на этом финальном этапе не задействуется). 


Нейроэмулятор 


Нейроэмулятор представляет собой нейронную сеть, обученную прямой динамике 
объекта управления. В качестве нейронной сети мы использовали многослойный пер- 
септрон. Обучение нейроэмулятора выполняется согласно схеме «обучение с учителем». 
Сеть получает на вход х(К) состояние 5(К) объекта управления и управляющее воз- 


действие и(К). Таким образом, нейроэмулятор представляет собой нерекуррентную 


сеть, его «динамизация» происходит за счет использования входов с временными за- 
держками (3). 
Расчет выходного значения сети У выполняется по формуле: 


у=8(У и (У и х,)), (4) 


— веса нейронов скрытого слоя, /(:) — активационные функции нейро- 
(2) 


где их 


нов скрытого слоя, и”^”’- веса нейронов выходного слоя, 8(:) — активационные функ- 


ции нейронов выходного слоя. На рис. 2 показан нейроэмулятор с четырьмя нейронами 
в скрытом слое, который получает на вход состояние порядка М =1. 

Подобным образом сконструированные нейроэмуляторы могут обучаться раз- 
личными градиентными оптимизационными методами с вычислением производных 
по методу обратного распространения ошибки (ВасКргоразайоп, ВР). При этом размер 


604 «Искусственный интеллект» 42012 


Обучение нейроэмуляторов с использованием псевдорегуляризации... 7-Ч 


выбранного временного окна, определяемый параметром М, должен быть установлен 
примерно равным порядку моделируемого динамического процесса, в противном случае 
алгоритму обучения будет невозможно найти корреляцию между входом нейросети 
и целевым выходом. 


Обучение нейроэмуляторов методом 
расширенного фильтра Калмана 


Фильтр Калмана является эффективным рекурсивным фильтром, который по 
ряду зашумленных и неполных измерений позволяет оценить внутреннее состояние 
динамической системы и применяется в широчайшем спектре технических устройств, 
от спидометров автомобиля до радиоприемников и радаров. Типичной задачей для 
фильтра Калмана является оценка прошлых, текущих или будущих значений поло- 
жения, скорости или ускорения некоторой динамической системы, для которой известна 
ее линейная или мгновенная линеаризованная модель. 

Обучение нейронных сетей является достаточно неожиданным приложением для 
теории фильтрации Калмана и, вместе с тем, очень эффективным: с одной стороны, 
качество такого обучения находится на уровне лучших пакетных алгоритмов второго 
порядка, таких как метод Левенберга-Марквардта или квази-Ньютоновских методов [14], 
а с другой стороны — обучение проводится в режиме он-лайн, что является актуаль- 
ным в случае выборок большого объема и задач управления. Существуют различные 
модификации этого метода обучения, так или иначе повышающие его эффективность: 
многопоточное обучение (тизтеат |еагпт?) [8], позволяющее минимизировать 
риск попадания в локальный минимум, пакетная форма обучения (Баев Югил) [15], 
позволяющая обрабатывать несколько последних измерений за один раз, несвязный 
расширенный фильтр Калмана (Оесопр!еа Ежеп4еа Кайтпап ЕЩег) [8], который 
применяется для экономии вычислительных ресурсов. Также недавно были предложе- 
ны новые реализации фильтра Калмана, имеющие большую вычислительную точность 
и, вследствие этого, обеспечивающие улучшенную сходимость: фильтр Калмана на ос- 
нове квадратного корня [10, с. 960] и кубатурный фильтр Калмана [16, с. 787]. В настоя- 
щей работе мы описываем наиболее простую и технологичную реализацию обучения 
методом расширенного фильтра Калмана, «глобальный расширенный фильтр Калмана» 
(С1оБа1 Ежепаеа Ка|Ппап ЕЁег, СЕКР). 

Во всех этих вариантах обучение нейронной сети рассматривается как задача 
оценки истинного состояния некоторой неизвестной «идеальной» нейросети, обеспечи- 
вающей нулевое рассогласование, под состояниями в данном случае принимаются зна- 
чения весов нейросети и_(А) ‚ а под рассогласованием — текущая ошибка обучения е(К). 


Этот динамический процесс обучения может быть описан парой уравнений в 
пространстве состояний, (5) и (6). Уравнение состояния (5) представляет собой модель 
процесса, представляющего эволюцию вектора весов под воздействием случайного 
процесса &(К), который считается белым шумом с нулевым математическим ожиданием 


и известной диагональной ковариационной матрицей О: 
ик +1) = и) + &(®). (5) 


Уравнение выхода (6) представляет собой линеаризованную модель нейросети (4) 
на такте А , зашумленную случайным процессом 6 (К), который считается белым шумом 


с нулевым математическим ожиданием и известной диагональной ковариационной 
матрицей Р: 
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(К) = Е +2, (6) 
ди 
где и(К)- веса нейросети, у(К) — постсинаптические потенциалы нейронов, 


х(К) — входные значения сети. Вычисление мгновенных значений производных > 
и 
производится методом обратного распространения. Рассогласование е(К) рассчиты- 
вается по формуле (7): 
е(К) =КК)- (К), (7) 
где (А) — целевое значение для нейросети, У(К) — реальный выход нейросети, 
рассчитываемый по формуле (4). 

Перед обучением нейросети проходит этап инициализации. Задаются ковариа- 
ционные матрицы шума измерения К =1/ и динамического шума обучения О = Ш, 
размер матриц ЁхЁ и МхМ соответственно, где Ё-— количество выходных нейронов, 
М№- количество весовых коэффициентов нейросети. Коэффициент 7 имеет смысл ско- 


рости обучения, у нас 1 = 0.001, коэффициент и определяет шум измерения, у нас 


и =10“. Также задаются единичная на инициализационном этапе матрица ковариации 
Р размера №МхМ и нулевая матрица измерений Н размера хм. 

Этап обучения производится в режиме он-лайн, коррекция весов нейросети после- 
довательно выполняется для каждого примера обучающей выборки. 

На такте К выполняются следующие действия. 

1) Вычисляется новое значение выхода нейросети У(К) согласно формуле (4), 
выполняется «прямой проход» нейросети. 

2) Выполняется «обратный проход» нейросети: методом обратного распростра- 


9 С 
нения вычисляются производные т ‚ 1=1,М№. Это делается с помощью такой же 
УХ. 


1 
техники, что и в методе обратного распространения ошибки, но локальные градиенты 
для выходных нейронов устанавливаются равными не текущей ошибке е(К), а кон- 


станте 1 ‚› что при всех тех же вычислениях обеспечивает получение значений якобианов 


2 2 
выходов нейросети р вместо градиентов СЫ ‚ поскольку Те = 2(®. 
ди’ и’ ди ди’ 
Формируется матрица наблюдений Н(К): 
х © | — 
Е ля 
ди 0, би, 


3) Определяется текущая ошибка работы сети е(К) по формуле (7), 
формируется матрица отклонений Е(К) размера 1хГ: 


Е(® = [2] (9) 


4)Вычисляются новые значения весов нейросети и(К-+1) и матрицы корреляции 
РК +1) по формулам: 


К(®) = РЮН(ЮН(ЮР(ЮН(Ю" +1", (10) 
Р(к +1) = РК) - КЮН(ЮР(®) + О, (р 
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ик +1) = и) + К®е(®), (12) 


где К(К) — матрица усиления Калмана, ее размерность №х Г. 

Действия 1) — 4) выполняются для всех элементов обучающей выборки. 

Обновляющаяся на каждом такте корреляционная матрица Р содержит информа- 
цию второго порядка о поверхности ошибок, что обеспечивает методу расширенного 
фильтра Калмана преимущество по сравнению с методами обучения первого порядка, 
такими как градиентный спуск и его модификации. 


Обучение нейроконтроллера 


После того, как нейроэмулятор обучен, его можно использовать для обучения ней- 
роконтроллера. Для этого нейроконтроллер последовательно подключается к нейроэ- 
мулятору, как показано на рис. 1 и рис. 2. 


_Нейроконтроллер, _ Нейроэмулятор 


Рисунок 2 — Нейроэмулятор и нейроконтроллер как единая нейросеть 

Обучение нейроконтроллера выполняется в режиме он-лайн, параллельно с управ- 
лением объектом. На такте А нейроконтроллер получает на вход уставку (К +1), век- 
тор состояния 5(К) (3) и генерирует управляющее воздействие и(К). Сигнал и(К) 
поступает на объект управления, переводя его в положение у(А +1), и, параллельно, 
на обученный нейроэмулятор, который генерирует оценку нового положения У( +1). 
Если нейроэмулятор хорошо обучен, то всегда [УСА +0 -У(+ п] <=, где = -— малое 
значение. Также уставка ’(К-+1) поступает на эталонную модель, которая генерирует 
целевое значение для обучения нейроконтроллера ут(А +1). В роли эталонной модели 


обычно используется устойчивая линейная динамическая система небольшого порядка. 
На основании выходного значения эталонной модели 7ти(К +1) и нового положения 


объекта управления у(к-+1) формируется текущая ошибка управления е(К): 
е(К) = тт(К +1) - У(К-+1. (13) 


Далее происходит этап коррекции весов нейроконтроллера. Идея обучения 
нейроконтроллера состоит в том, что последовательно соединенные модули нейро- 
контроллера и нейроэмулятора, каждый из которых представляет трехслойную 
нейросеть с весами И’. и И’, соответственно, образуют новую шестислойную нейро- 
сеть (рис. 2), которая обучается минимизировать ошибку (13). При этом корректируются 
только веса нейроконтроллера Й’., веса нейроэмулятора И’, считаются «заморо- 
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женными» и не изменяются. Для расчета производных, необходимых для коррекции 
весов нейроконтроллера, используется метод обратного распространения ошибки, 
который применяется к объединенной нейросети «нейроконтроллер - нейроэмулятор». 
В случае, если для обучения нейроконтроллера применяется метод градиентного спус- 
ка [7], [9, с. 168], [12], [13], через объединенную нейросеть пропускается текущая 


2 

ошибка управления (13), что позволяет получить необходимые градиенты ны и 

Ус 
ОГе(к)*] 

би 
фильтра Калмана [1], [8], [12], [13], через объединенную нейросеть пропускается 
0 бу 
ди ь ди ° 


формируют матрицу наблюдений Н(К). Матрица отклонения Е(К) составляется из 


. Если для обучения нейроконтроллера используется метод расширенного 


константа 1, что позволяет получить необходимые якобианы 


которые 


текущей ошибки управления (13), после чего выполняется коррекция весов нейрокон- 
троллера согласно формулам (10) - (12). 


Максимизация абсолютных значений локальных 


управляющих градиентов нейроэмуляторов 


Рассмотрим нейроэмулятор, в нашем случае представляющий собой многослойный 
персептрон с линейными функциями активации для входного слоя нейронов и функ- 
циями активации гиперболического тангенса для скрытого и выходного слоев нейронов, 
прямая динамика которого определяется формулой (4). 


НР 
9 


Рисунок 3 — Вычисление локальных градиентов для нейроэмулятора 
При выполнении процедуры обратного распространения, проводится расчет 
локальных градиентов для скрытого слоя 9"? и входного слоя нейронов д” нейронов: 
: (14) 
НР _ м (2) с бИТ 
0 = УЗ И бы. 
т= 


и _ У’ оби, (15) 
п=1 


где их 


— веса нейронов скрытого слоя, Г(:) — активационные функции нейронов 
скрытого слоя, 2, — значения постсинаптических потенциалов скрытого слоя, К — 
количество нейронов скрытого слоя, и?) — веса нейронов выходного слоя, [, — коли- 


чество выходных нейронов (для упрощения дальнейших выкладок мы примем Ё=1). 
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Управляющий локальный градиент 6, соответствует тому входному нейрону, который 
получает управляющий сигнал от нейроконтроллера и(К). Если нейроэмулятор 
сконструирован так, как показано на рис. 3, то 9, =9/^, 


К Г 
Га (0) (2) сот 
6, =У м (2) Ум 5, ь 
п=1 


т=1 


(16) 


Хорошо обученные нейроэмуляторы, обладающие среднеквадратичной ошибкой 
моделирования прямой динамики объекта управления менее 10”, не всегда обеспе- 
чивают хорошее качество обучения нейроконтроллера [12], [13]. Анализ локальных 
градиентов входных нейронов нейроэмуляторов, показал, что у менее успешных в 
смысле качества управления нейроэмуляторов абсолютные значения управляющих 
локальных градиентов д, относительно малы. При этом, точность как у успешных, 
так и у неуспешных нейроэмуляторов в смысле среднеквадратичной ошибки моделиро- 
вания прямой динамики объекта управления может быть приблизительно одинакова. 


Обучение нейроэмуляторов с псевдорегуляризацией 


В настояшей работе мы предлагаем метод обучения нейроэмуляторов с оптими- 
зацией локальных управляющих градиентов, названный нами псевдорегуляризацией. 
Суть псевдорегуляризации состоит в минимизации в процессе обучения нейроэмуля- 


тора функционала О(\): 
О(и) =е() +1(1- д, (и)°), (17) 
где е(\) — среднеквадратичная ошибка моделирования объекта (7), д, — управ- 


ляющий локальный градиент (16), ДА — заданная априори константа псевдорегу- 
ляризации. 

Целью данной статьи является обучение нейроэмулятров прямой динамике 
объекта управления с максимизацией абсолютных значений управляющих градиентов 
в среднем (18), 


о- 155%), > 


П л= 

при этом учитывается, что в реальных системах вследствие эффекта исчезновения 
градиента д, (и)? <<1. В формуле (18) п — количество элементов обучающей выборки. 

Для минимизации функционала (17) в настоящем работе нами предлагается 
обобщение метода оптимизации расширенного фильтра Калмана для многокрите- 
риального случая. 

Теперь выходом модели динамического процесса обучения на каждом такте 
является не только результат прямого прохода выход нейросети У, а и вычисляемая 
во время выполнения обратного прохода величина д.. 

Соответственно, для дополнительного выхода рассчитываются якобианы 

2 
0(6, ) 
ди 
О(\) добавляется в матрицу отклонений ЕЁ. 


Продифференцируем квадрат управляющего локального градиента (16) по весам 
скрытого и выходного слоя (здесь и далее мы принимаем [ =1): 


для включения в матрицу наблюдений Н, а второе слагаемое функционала 
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2 
и ) Ве. 26, }"(2,) И 
ол 
0(6^) (19) 
а_=0, для п=1, 
ди И 
0(6? 
В м =20,/'(21) Ино, (20) 
1 


На этапе инициализации зададим ковариационные матрицы шума измерения 
В = 7! и динамического шума обучения О = Ш, размер матрицы В в многокрите- 
риальной версии фильтра становится равным (2 +М)х(Ё+М), размер матрицы О ос- 
тается Мх М, здесь: Г, — количество выходных нейронов, № — количество весовых коэф- 
фициентов нейросети, М -— количество управляющих входов. Размер матрицы наблю- 
дений Н становится равным (2+ М)х М, размер матрицы усиления Калмана К теперь 
№х(Ё-М) , размер матрицы корреляции процесса обучения Р’ остается равным М№Мх М. 


На такте К выполняются следующие действия. 
1) Выполняется «прямой проход» нейросети, вычисляется выход нейросети У(К) 


согласно формуле (4). 
2) Выполняется «обратный проход» нейросети: методом обратного распростра- 


ОУ 
нения вычисляются якобианы — . В процессе расчета якобианов, параллельно вычис- 
У? 


ляются локальные градиенты для скрытого и входного слоя нейронов (14) — (15), 
определяются управляющие локальные градиенты д, (16), вычисляются якобианы 


2 
р ‚ =1, № по формулам (19) — (20). Формируется многокритериальная матрица 
и, 
наблюдений Я (К): 
о а 
= а би ди’, ” Оу’ (21) 
НО об) 98) 982) 
би д “дм 


3) Формируется многокритериальная матрица отклонений Е(К) размера 1х(Ё+М): 
тя 2 
ЕЮ =е® 2а-5?)|. в 
4) Вычисляются новые значения весов нейросети и(А+1) и матрицы корре- 
ляции Р(А +1) по формулам (10) — (12). 
Действия 1) — 4) выполняются для всех элементов обучающей выборки. 
Предлагаемая здесь техника многокритериальной оптимизации методом расширен- 
ного фильтра Калмана не встречалась нами ранее в литературе. Она может исполь- 
зоваться и для других многокритериальных задач вида (17), для которых можно ввести 
функцию ошибки и вычислить соответствующие якобианы, например, для регуля- 
ризации нейросетей по Тихонову. 
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Результаты экспериментов 


Численные эксперименты состояли из двух частей: обучение нейроэмуляторов 
и обучение нейроконтроллеров. В ходе обучения нейроэмуляторов было взято множество 
из 250 нейросетей, их веса были инициализированы случайными небольшими значе- 
ниями и зафиксированы, после чего было проведено обучение нейроэмуляторов без 
псевдорегуляризации и с псевдорегуляризацией. Во второй части эксперимента обучен- 
ные нейроэмуляторы были использованы для обучения нейроконтроллеров для управ- 
ления нелинейным динамическим объектом 2-го порядка, было проведено сравнение 
показанного качества управления. 

Объект управления. В нашей работе в качестве объекта управления мы исполь- 
зовали нелинейный динамический объект второго порядка из [17], который, в свою 
очередь, является слегка модифицированной версией объекта управления из классичес- 
кой работы [7]. Объект управления задается формулой: 


ко - 9 - ВУ: - ОБ -2) = Иззи) 
1+ У - | У - 2)? ? (23) 
где и(К) — входной сигнал, у(к +1) — выходной сигнал на такте К. 


Обучение нейроэмуляторов. Обучение нейроэмуляторов проводилось в среде 
МАТГАВ без использования пакета Меига! Мебмотк Тообох. На объект подавался 
идентификационный сигнал и(А) = зт(2лк/300) и производилось протоколирование 
выходов у(К). На основе записанных данных была сформирована обучающая и тесто- 
вая выборки примеров динамики в количестве 500 и 100 примеров соответственно. 
На них были обучено 6 множеств по 250 нейроэмуляторов методами глобального 
расширенного фильтра Калмана без псевдорегуляризации и методом многокритери- 
ального глобального расширенного фильтра Калмана с псевдорегуляризацией с 
различными значениями параметра Л (табл. 1). Отметим, что перед обучением веса 
всех множеств нейросетей были идентичны, варьировались только алгоритмы обучения 
для каждого из множеств. Для всех слоев нейросетей были использованы активацион- 
ные функции гиперболического тангенса, количество нейронов в скрытом слое варьи- 
ровалось от 3 до 7. 


Таблица 1 — Сравнительные характеристики обученных нейроэмуляторов: без 
псевдорегуляризации и с псевдорегуляризацией с различными значениями веса /, 


о 563 16вло- |500] | )-0.015 | 720.02 | ^=0.025 | 2-0.03 
обучения | регуляризации 

Ошибка 1.62Е-06 2.6Е-06 | 6.1Е-06 | 3.3Е-06 | 19Е-05 | 2.5Е-05 
МФЕ, мин. 

Ошибка 2.1Е-06 3.0Е-05 | 5.7Е-05 | 8.1Е-05 | 1.3Е-04 | 8.8Е-03 
МЪЕ, сред. 

О. мин. 2.5Е-04 4.0Е-04 | 4.8Е-04 | 2.7Е-03 | 18Е-02 | 2.4Е-02 
О, сред. 2.9Е-04 2.0Е-02 | 11Е-01 | 1.4Е-01 | 4.5Е-01 | 53Е-01 

Здесь была использована формула расчета среднеквадратичной ошибки: 


М5Е-<,—,) >, где У, — выход нейросети, (, — целевое значение. Параметр ©, 


характеризующий среднюю величину квадратов управляющих локальных градиентов 
нейроэмуляторов, вычисляется по формуле (18). Как видно из табл. 1, использование 
многокритериального расширенного фильтра Калмана обеспечило рост абсолютных 
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значений управляющих локальных градиентов <> за счет некоторого понижения ка- 
чества моделирования прямой динамики объекта управления МЪЕ. 

Обучение нейроконтроллеров. После обучения нейроэмуляторов было прове- 
дено обучение нейроконтроллеров, для чего нейросети и алгоритмы их обучения 
были смоделированы в среде ЗипииК, без использования пакета Меига! Мебуойк В!осК$е!. 
В качестве эталонной модели была взята устойчивая линейная динамическая система 


ы ы 1 
первого порядка с передаточной функцией Т(5) = — ———. Для оценки качества управ- 


0.0045 -+1 
ления использовалась интегральная абсолютная ошибка ([Пиеота| АБзопие Етог, [АЕ), 


АЕ = У — тт(К))°, (24) 


где у(К) — выход объекта управления, у(К) — выход эталонной модели, и — 
количество тактов на участке. 


т т т т 
Уставка 

— — — Эталонная модель Н 
Объект управления 


1 1 1 1 1 1 1 | 1 
о 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 


Рисунок 4 — Обучающий участок, начало обучения 
Копия нейроконтроллера, показавшая лучшее качество управления на тестовом 
участке за все итерации дополнительно тестировалась на валидационном участке 
(рис. 5, справа). 


ТЕЗТ МАЛНОАЛТИСИМ 


Уставка 


ОБР Уставка 


од — — - Эталонная модель || о4 — — - Эталонная модель || 
Объект управления 


Объект управления 


о. | 
0.2 | 
0.1 
о 
1 
9.2 
оз 
-0.4 


-9.5 | 


о 50 1 60 1 0 555 250 о 56 1 65 1 50 505 250 
Рисунок 5 — Тестирующий участок (слева), валидационный участок (справа) 


Результаты, показанные на валидационном участке, считаются 
окончательными и представлены в табл. 2. 


Таблица 2 — Качество управления для нейроконтроллеров, обученных 
с помощью нейроэмуляторов без псевдорегуляризации и с псевдорегуляризацией 

т — ^=0.01 | ^=0.015 | 2^=0.02 | 2=0.025 | ^=0.03 
обучения | псевдорегуляризации 
Ошибка 

0.00373 0.00218 | 0.00222 | 0.00221 | 0.00220 | 0.00166 
ТАЕ, мин. 
о 0.06995 0.01757 | 0.01342 | 0.03545 | 0.02039 | 0.03245 
ТАЕ, сред. 
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Как видно из табл. 2, использование предлагаемого метода псевдорегуляризации, 
обеспечило повышение качества обучения нейроконтроллеров в среднем в 2 — 3 раза. 


Выводы 


В работе предложен новый метод обучения нейроэмуляторов для обучения 
нейроконтроллеров для метода нейроуправления с эталонной моделью. Было проведено 
экспериментальное исследование предлагаемого метода псевдорегуляризации с обуче- 
нием 1500 нейроэмуляторов и 1500 нейроконтроллеров, показавшее эффективность 
нового метода по сравнению с традиционным обучением нейроэмуляторов по методу 
наименьшей среднеквадратичной ошибки моделирования прямой динамики объекта 
управления. Использование псевдорегуляризации обеспечило уменьшение ошибки 
управления в среднем в 2 - 3 раза. Для решения задачи псевдорегуляризации была 
предложена многокритериальная версия расширенного фильтра Калмана и была 
экспериментально подтверждена его работоспособность. 
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КЕГОМЕ 
А.М. Спегпо4иЬ 
Тгатте о} Меигоети!а10т$ мий Изе оГР5еидотезшат2аНоп [ог 
Моае Кеетепсе Ааарйуе Меигосопто! 


Мо\’адауз, агЙсла] пеига| пебмотК$ аге ул4е]у изе4 Юг попПпеаг адарнуе сопёго| 
ригрозез. шиза аррИсаноп$ шса4е атсгай апа публА епоше соо], ро\ег ра, 
шагу агте4 уес]ез, ес. ЕЁслепе таште а2огИил$ Юг ргоепл$ оЁ 14епиЙсаноп 
ап сопго| Юг попПпеаг р!апё5 изше пейга| пебуогК$ аге $Н асфиа1. ш Фе с1уеп рарег, 
Фе Моде! Кеегепсе Адарнуе Меигосопо! тео4 {а 15 а|50 Кпо\п аз “пеигоетшаог 
ап пеигосопегоПег зсВете” 15 сопз14еге4. ТНе $%аоез оР нашше оЁ пеигоети]аог апа 
пеигосопегоПег аге дезсге4; е рго ет оР{гаште пеигоетшаюг ш теапз оЁ тодеПпе 
ог пес рап’$ 4упапис$ 15 415си55е4; Фе Ежепдеа КаПпап ЕШег тефо@ Юг пепга1 
пебмотК$ ташишс 1$ а150 сопз14егеа; {Ве рзеидогеоиап1халоп рго ет Юг пеигоети]аюг$ 
аз те рго ет оЁР тахшихаНоп оЁ 1оса] сопёго| эта 1етй$ 15 зе; бе ши@сгиепа Ежепаде4 
Капап ЕЩег шефо4 Юг зоЙуше рзеидогеоШанттанйоп рго ет 15 ргорозед. ТБе 
ехрегипеща!| гезиН$ ми уеП-Кпо\п попПпеаг упатс р]апё ргорозе4 Бу Магепага аге 
ргоу14е4. Те гези$ ог патегса| зииШайоп$ аге ргеземе4. ТВе ехрегитет шса4е4 
ташше оЁ 1500 пепгоети]аюотз ап 1500 пеигосопно!|ег$. Сотрагайуе гези $ оЁ 
таште ог пеигоетшают$ ап пеигосопго[егз аге ргезеще4. Зиишанопз$ зво\и доцЫе ог 
Фисе шстеазе оЁ сопёго| ассигасу г пеигосопо|ег$ таше4 оп Фе Базе оЁ рзечдо- 
теошаг1те4 пеигоетщаот$ ш сотраг1зоп 10 пеигоетиаюог$ гаше4 шадюопаПу. 
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